首字母缩略词和长形式通常在研究文件中发现,更多的资料来自科学和法律领域的文件。在此文件中使用的许多首字母缩略词是特定于域的,很少在正常文本语料库中找到。由于这一点,基于变压器的NLP模型经常检测缩略词令牌的OOV(词汇),特别是对于非英语语言,它们的性能在提取期间将首字母缩略词与它们的长形式联系起来。此外,像BERT这样的预磨削变压器模型不专注于处理科学和法律文件。随着这些积分是这项工作背后的总体动机,我们提出了一种新颖的框架尚非:缩写式提取的字符感知BERT,其考虑文本中的字符序列,并通过屏蔽语言建模进行了科学和法律域。我们进一步使用了一个增强损失功能的目标,将最大损耗和掩码丢失术语添加到培训人物的标准交叉熵损失。我们进一步利用伪标记和对抗性数据生成来提高框架的普遍性。与各种基线相比,实验结果证明了所提出的框架的优越性。此外,我们表明,所提出的框架更适合基线模型,用于对非英语的零拍摄概括,从而加强了我们方法的有效性。我们的Team BackGprop在法国数据集中获得了最高分,丹麦和越南的最高分,在全球排行榜上的英语合法数据集中获得了第三高,用于SDU AAAI-22的Althym提取(AE)共享任务。
translated by 谷歌翻译
在此上下文中研究了用于安全性的机器。存在几种垃圾邮件检测方法,每个垃圾邮件检测方法采用不同的算法来检测不期望的垃圾邮件。但这些模型容易受到攻击。许多攻击者通过以各种方式污染到模型的数据来利用模型。因此,在这种情况下,在这种情况下表现得可能需要在不需要再培训的情况下容易地解除污染数据。在大多数情况下,在大多数情况下,Retringing在过去已经训练到模型的大量数据,这需要再次训练,只需删除少量污染数据,这通常明显小于1%。通过开发所有垃圾邮件检测模型的未读框架可以解决这个问题。在本研究中,无线学习模块集成到基于天真贝叶斯,决策树和随机林算法的垃圾邮件检测模型中。为了评估未经读回的未经读取的好处,通过攻击者的职位和证明模型的漏洞,污染和利用了三种垃圾邮件检测模型。每种情况都显示了准确性和真正阳性率的降低,显示出污染对模型的影响。然后,未经读取的模块集成到模型中,并且污染数据是未解决的;在无线学习后测试模型,可以看到恢复性能。此外,对所有模型的不同污染数据尺寸进行了比较无线学习和再培训时间。在分析调查结果时,可以得出结论,无线学习与再培训相当优于。结果表明,无光,易于实施,易于实施,易于使用,有效。
translated by 谷歌翻译